如何删除脚本中的汉字

        今天遇到个问题,脚本中参杂了中文汉字,现在需要删除所有汉字。以前在脚本中删除一两个汉字,那时手到擒来,匹配所有汉字还是第一次。

        汉字在计算机系统里是按照一定的编码格式表示的,就是常说的 GB2312、GB18030等,只要符合这个编码格式的就都是汉字了。

        从GB2312-1980编码开始,汉字都是采用双字节编码。为 了与系统中基本的ASCII字符集区分开,所有汉字编码的每个字节的第一位都是1。GB2312的汉字编码规则为:第一个字节的值在0xb0到0xF7之间,第二个字节的值在0xAO到0xFE直接。由于GB13000是对GB2312的扩展,所以也被称为GBK。

        那么用sed把符合这些编码格式的用空替代就解决问题了。

sed的命令表达式:

1
sed -r "s/[\x81-\xFE][\x40-\xFE]//g" file

        执行以后发现有问题,原来系统的编码设置问题,更新一下:

1
LANG=C sed -r "s/[\x81-\xFE][\x40-\xFE]//g" file

        C代表英文环境ASCII编码格式,再次运行,一切OK。